Lecture 21
这一节的主题是合作。
进行多轮的囚徒困境
前面的囚徒困境可以通过签订合约来进行,但是实际上生活中的很多的活动都是建立在多次的合作中达到的。
cooperate | defeat | |
---|---|---|
cooperate | 2, 2 | -1, 3 |
defeat | 3, -1 | 0, 0 |
这个经典的囚徒困境博弈进行若干轮。
一方面,我们试图在最开始的时候建立自己的信誉,因此可能一开始就需要进行合作。
但是实际上,我们应该从后往前进行考虑,因为最后一次博弈,之前所有的付出都会是沉没成本,并且最后不用建立自己的声誉,一次双方一定会选择(D, D)。
假设现在博弈进行两轮,那么最后一轮大家都会选择(D, D),因此收益是(0, 0)。
现在我们类似于战争消耗(war attrition)中的例子一样,进行第一轮的博弈,将未来的收益加入到第一轮的收益矩阵中:
cooperate | defeat | |
---|---|---|
cooperate | 2+0, 2+0 | -1+0, 3+0 |
defeat | 3+0, -1+0 | 0+0, 0+0 |
后面增加的就是未来的收益。
那么第一轮的游戏和第二轮的游戏是一样的,最后第一轮同样会选择(D, D)。
如果游戏进行500轮,依旧是全部都选择defeat。
这个多轮的囚徒困境博弈实际上就是前面Lecture 16有关垄断者和领域新进者之间的博弈相似。(最后就是垄断者和全部的新进者进行合作)
未来对过去的博弈没有激励或者惩罚,因此无法达成合作的局面。
这样的现象也可以称作是连任失败现象(lame duck)。
lesson:从后面开始崩溃和瓦解。如果要瓦解这样尴尬的局面,我们需要有一个光明的未来。
Finite game - is there hope for cooperation?
A | B | C | |
---|---|---|---|
A | 4, 4 | 0, [5] | 0, 0 |
B | (5), 0 | (1), [1] | 0, 0 |
C | 0, 0 | 0, 0 | (3), [3] |
这个游戏会进行两轮。
一开始我们希望一开始就能进行(A, A)。
实际上,在一轮博弈中,(B, B), (C, C)才是纳什均衡点,一开始并不会达到(A, A)。
进行两轮博弈时,如果不进行任何的干涉,那么依旧不会达到一开始就合作的局面。
我们现在进行游戏的指导政策,并且严格按照指导进行游戏:
- 如果第一轮达到(A, A)的局面,那么双方第二轮都(C, C)。
- 如果第一轮达到其他的局面,那么第二轮都选(B, B)。
我们将第二轮的收益带入到第一轮:
A | B | C | |
---|---|---|---|
A | 4+3, 4+3 | 0+1, 5+1 | 0+1, 0+1 |
B | 5+1, 0+1 | 1+1, 1+1 | 0+1, 0+1 |
C | 0+1, 0+1 | 0+1, 0+1 | 3+1, 3+1 |
这样我们就可以看到一开始能够达到(A, A)的局面,本质上我们将(C, C)作为一种奖励,而将(B, B)作为一种惩罚,使得有一个美好的未来,进行大家都选择合作的激励作用。
本质上有一个计算的公式:
今天不合作的诱惑+明天不合作的惩罚 与 明天的奖励之间的大小之间的比较:
[(5-4)(不合作的诱惑)+1(B作为一种惩罚)] < 3(C作为一种奖励)
lesson:
一个阶段的博弈有不止一个NE,我们可以通过预测将来NE的收益,来提供现在选择的动机。
囚徒困境再玩
假设这个游戏进行若干轮,投两枚硬币,一旦两枚是正面,那么结束游戏:最好的方式先进行若干轮合作,游戏快结束进行不合作。
类似于一种以牙还牙的策略。如果合作,那么就继续合作;一旦对方反叛不合作了,那么以后所有都选择不合作。
前面的例子中,一旦到达最后的博弈,那么反叛。
今天不合作的诱惑+明天不合作的惩罚 与 明天的奖励之间的大小之间的比较:
但是现实中我们不知道这个合作什么时候结束。因此对我们的显示生活中有很大的指导意义,因为我们的生活中的合作就是一个无限的游戏:一直合作,一旦对方叛变了,那么以后都选择不合作。
囚徒困境和合作的区别
囚徒困境仅仅进行一轮博弈,而合作是进行若干轮的博弈,并且是不知道结束时机的。